00_EDA - Práctica Exploratory Data Analisis

Autor: Diego Senso González
30 de octubre de 2020
Asignatura: Machine Learning - Máster de Data Science para finanzas

Objetivo de la práctica

El objetivo de la práctica es realizar en este archivo un análisis exploratorio del dataset seleccionado.

Elección del dataset a analizar

Para la realización del EDA, se ha procedido a elegir y descargar un dataset de www.kaggle.com . Concretamente, el dataset seleccionado es "FIFA 19 complete player dataset". En él, se contienen un conjuntos de observaciones, siendo cada de ellas un jugador de los presentes en el videojuego FIFA 19. Por otra parte, existen un total de 89 columnas o variables. Para la realización del estudio y con el fin de simplificar el análisis, se ha procedido previamente a eliminar una serie de estas variables, para obtener un dataset más manejable, más equilibrado y claro para representar gráficamente.

El dataset en cuestión cuenta con las siguientes variables:

Variables que expresan la calidad del jugador en aspectos concretos, puede tomar valores entre 1 y 99.

Librerías

En primer lugar, cargamos las librerías necesarias para el estudio.

Carga del dataset

Primeras medidas

Se realizan las primeras medidas para observar la forma del dataset. En este caso, existen 18207 observaciones de jugadores y 21 variables. También se realiza un "size", a fin de obtener una visión del tamaño del dataset.

Gracias a la instrucción "info" se pueden observar todas las variables, el tipo de cada una de ellas, y las existencia de valores nulos.

Eliminación de valores nulos y NAs

Como existen algunos de estos valores en el dataset, vamos a proceder a eliminar las observaciones que los contienen para evitar que alteren los resultados. Cabía la opción de sustituir los valores nulos por un valor medio. Sin embargo, como hay variables como "Club" que no deben sustuirse de esta manera, se ha decidido eliminar todas las observaciones de jugadores que contengan valores nulos.

Se procede a eliminar las filas donde existen valores nulos o NA.

Ahora, observamos todas las variables numéricas que conforman el dataset. Gracias a "describe" podemos ver cómo se comportan, teniendo disponibles datos como su media, mínimos, máximos, y desviación típica, entre otros valores.

Representación de variables categóricas

De cara a realizar un mejor estudio, en primer lugar se van a representar gráficamente algunas de las variables categóricas, con el finde obtener una idea de cómo se distribuyen y comportan.

En primer lugar, vamos a estudiar la nacionalidad, pues no interesa conocer cuáles son las nacionalidades que cuentan con más jugadores dentro del juego.

Nacionalidad

Podemos observar que claramente Inglaterra es el país que posee mayor cantidad de jugadores, seguido a cierta distancia por Alemania y España. En total, se pueden observar los 20 países más representados en el dataset.

Club

En cuanto a clubes se refiere, la situación es mucho más equilibrada. El valor máximo de jugadores de un mismo equipo asciende 33, el cual es compartido por varios equipos. Arriba se puede ver una selección de los equipo que tienen más futbolistas en el juego. Entre los primeros resultados, lógicamente se encuentran equipos muy populares.

Posición

En cuanto a la posición, es fácilmente analizable desde una perpectiva gráfica, ya que existen menos valores. El valor más repetido es "ST" que correponde a la posición de "Delantero Centro". Sorprendentemente la segunda es "GK", que corresponde a "Portero". Podría ser llamativo, de no ser por el hecho de que en el dataset las posiciones están muy disgregadas. Es decir, todos los defensas no toman el mismo valor, sino que pueden ser "CB" (defensa central), "LB"(lateral izquierdo) o "RB" (lateral derecho), entre otros. en tercera posición, se encuentra precisamente el puesto de "defensa central".

En cuanto a los menos representados se hallan "LF" y "RF", que serán el equivalente a "segundo delantero derecho" y "segundo delantero izquierdo", ya que son posiciones bastante menos comunes.

De cara a ver cómo es la distribución de la valoración media (Overall) para cada posición, se ha generado un gráfico boxplot o de bigotes:

Las medianas parecen varias. Concretamente, las más elevadas están en posiciones que anteriormente estaban entre las menos representadas en la muestra. Esto puede ser debido a que, de esas posiciones, haya menos valores y que estos tengan una valoración buena. Por otro lado, en posiciones más populares parecen concentrarse la mayor cantidad de outliers. Esto podría explicarse debido a que estas posiciones tengan jugadores con unas medias muy elevadas con respecto al resto de futbolistas que comparten su posición.

Desempeño defensivo/ofensivo

Interesaba comfirmar también si, como era de esperar, en el dataset existían más jugadores diestros que zurdos. Ahora bien, gracias al gráfico boxplot podemos estudiar si hay diferencias reseñables de valoración dependiendo si el jugador es diestro o zurdo.

Lo más común son jugadores que tengan un desempeño medio tanto en defensa como en ataque, es decir, equilibrados. Esta variable indica también la tendencia del jugador si suele ser más de defensa o de ataque. Vemos que el valor que suele tomar es un valor medio en ambos aspectos, y que el segundo y tercera valor contiene una tendencia más alta en cuanto a la defensa o el ataque, respectivamente.

Pierna buena

Interesaba confirmar, si como era de esperar existían en la muestra más jugadores diestros que zurdos. Este gráfico representa la cantidad de jugadores diestros (color gris) y zurdos (color azul) para cada nivel de valoración. En todos los valores del eje X los diestros son más. Sin embargo, algo que se puede intuir es que la cantidades de observaciones aumenta entre los valores de 60 y 70 de valoración. De este misma variable, se ha planteado un gráfico boxplot:

En el gráfico no existen grandes diferencias. Sí es cierto que la mediana de los zurdos (color lila) parece ser algo superior a la de los diestros (color verde). Por otro lado, el tercer cuartil de los diestros parece algo más voluminoso. Los rangos son algo menores en los zurdos, y además parecen contar con menos valores atípicos u outliers en la muestra.

Real Face

Como se ha mencionado en la introducción, la variable "Real Face" hace referencia a los jugadores que cuentan con su cara real implantada en su personaje del juego. En caso contrario, cuentan con una cara genérica. Se ha seleccionado el presente gráfico porque muestra de forma clara cómo según va creciendo la valoración de las observaciones, mayor porcentaje de jugadores cuentan con su cara real. Cabe pensar, lógicamente, que el videjuego se esfuerza por tener las caras reales de los mejores y más populares jugadores. Mientras que para valoraciones por debajo de 70 no hay casi jugadores con cara real, desde 80 hacia arriba la mayoría sí cuenta con ella.

Representación de variables numéricas

Valoración general, valoración potencial y edad

En el gráfico de arriba, se realiza un scatterplot para ver cómo se relaciona la distribución de la valoración general de los jugadores y la valoración potencial. El hecho de que la parte inferior derecha esté vacía se produce debido a que la valoración potencial es la máxima que pueden alcanzar, por lo que no puede ser menor a la que ya tienen.

En este otro gráfico, se compara la edad y la valoración. Destaca que las valoraciones más elevadas parecen encontrarse entre los 25 y un punto medio entre los 30 y 35. Esto coincide con la edad que se considera de madurez de los futbolistas. Por otro lado, la acumulación de los valores más bajos corresponden a los jugadores más jóvenes.

Si comparamos el potencial con la edad, el gráfico cambia. Aquí los potenciales más altos parecen concentrarse en una edad algo inferior a como ocurría con la valoración general.

Para finalizar, superponiendo ambos gráficos se pueden observar los puntos morados sobresaliendo en una zona en la que no hay verdes. Una zona reservada para potenciales elevados de jugadores jóvenes.

Como se puede observar existe una gran diferencia de datos en favor de los jugadores diestros con respecto a los zurdos.

Conjunto de variables numéricas

Pese a no poder extraer grandes conclusiones del gráfico, se trata de una representación simple de todas las variables numéricas juntas. La línea diagonal es el gráfico de cada variables consigo misma, mientras que el resto de gráficas son la relación de las variables una a una.

Gráficos de violín

En este gráfico en forma de violín se pueden ver representadas todas las variables de la muestra. Las tres primeras están muy concentradas lógicamente. La edad normal de un futbolista tiene unos valores muy limitados con respecto al resto de variables cuyos valores pueden estar entre 1 y 99.

El potencial tiene unos valores algo superiores y ligeramente más concentrados a las de la valoración global de cada jugador, también normal por la naturaleza de ambas variables.

En cuanto al resto, algunas como "Finishing", "ShotPower" o "Penalties" presentan una forma más delgada, lo que indica que sus datos están menos concentrados que el resto. La explicación es que estas variables son muy diferentes en los diferentes jugadores. Habrá jugadores de tengan una definición, una potencia de tiro o un tiro de penati muy altos, mientras que otros presentan unos valores muy bajos dependiendo de su posición en el campo, estilo o incluso fisionomía del jugador. En otras como "BallControl", "Dribbling" o "Stamina" los datos parecen concentrarse algo más, indicando que no existen tantas diferencias entre unos jugadores y otros en estos aspectos.

Por último, en variables como "HeadingAccuracy", "Dribbling" o "ShotPower" existe una concentración reseñable alrededor de unos valores. Sin embargo, también existe una concentración en la zona inferior de esos violines, indicando que la mayoría de jugadores está en esos valores, pero que también existe una reseñable concentración en futbolistas que cuentan con una valoración muy baja en esos atributos.

Correlación

Se proecede a construir la matriz de correlaciones de forma numérica y luego gráfica, a fin de ver las posibles correlaciones entre las variables disponibles.

El gráfico de correlaciones representa de forma gráfica la matriz de correlaciones obtenida anteriormente. Los colores más claros representas las variables más correlacionadas entre sí. Del gráfico cabe extraer una serie de conclusiones:

La potencia de tiro también se relaciona estrechamente con la definición, el dribbling y la habilidad para tirar penaltis. Así como la agilidad con la aceleración, o la misma definción con el dribbling.

Estos son los resultados de un primer Análisis Exploratorio de la presente base de datos. Dada la naturaleza de las variables se ha intentado hacer primar un análisis más gráfico y visual de la muestra disponible. Con un análisis más profundo y desde otros puntos de vista, seguramente se pueda llegar a sacar mayores y más relevantes conclusiones acerca de los datos existentes.

Referencias